Recent researches show that the deep learning based object detection is vulnerable to adversarial examples. Generally, the adversarial attack for object detection contains targeted attack and untargeted attack. According to our detailed investigations, the research on the former is relatively fewer than the latter and all the existing methods for the targeted attack follow the same mode, i.e., the object-mislabeling mode that misleads detectors to mislabel the detected object as a specific wrong label. However, this mode has limited attack success rate, universal and generalization performances. In this paper, we propose a new object-fabrication targeted attack mode which can mislead detectors to `fabricate' extra false objects with specific target labels. Furthermore, we design a dual attention based targeted feature space attack method to implement the proposed targeted attack mode. The attack performances of the proposed mode and method are evaluated on MS COCO and BDD100K datasets using FasterRCNN and YOLOv5. Evaluation results demonstrate that, the proposed object-fabrication targeted attack mode and the corresponding targeted feature space attack method show significant improvements in terms of image-specific attack, universal performance and generalization capability, compared with the previous targeted attack for object detection. Code will be made available.
translated by 谷歌翻译
Image super-resolution is a common task on mobile and IoT devices, where one often needs to upscale and enhance low-resolution images and video frames. While numerous solutions have been proposed for this problem in the past, they are usually not compatible with low-power mobile NPUs having many computational and memory constraints. In this Mobile AI challenge, we address this problem and propose the participants to design an efficient quantized image super-resolution solution that can demonstrate a real-time performance on mobile NPUs. The participants were provided with the DIV2K dataset and trained INT8 models to do a high-quality 3X image upscaling. The runtime of all models was evaluated on the Synaptics VS680 Smart Home board with a dedicated edge NPU capable of accelerating quantized neural networks. All proposed solutions are fully compatible with the above NPU, demonstrating an up to 60 FPS rate when reconstructing Full HD resolution images. A detailed description of all models developed in the challenge is provided in this paper.
translated by 谷歌翻译
ACM MMSPORTS2022 DEEPSPORTRADAR实例细分挑战的目标是解决个人人类的细分,包括球员,教练和裁判在篮球场上。这项挑战的主要特征是,玩家之间存在很高的阻塞,数据量也非常有限。为了解决这些问题,我们设计了一个强大的实例分割管道。首先,我们对此任务采用了适当的数据增强策略,主要包括光度失真变换和复制式策略,该策略可以生成更多具有更广泛分布的图像实例。其次,我们采用了强大的分割模型,基于SWIN基础的CBNETV2骨架上的基于混合任务级联的检测器,并将Maskiou Head添加到HTCMASKHEAD,可以简单有效地改善实例细分的性能。最后,采用了SWA培训策略来进一步提高性能。实验结果表明,所提出的管道可以在DeepSportradar挑战中取得竞争成果,而挑战集则以0.768AP@0.50:0.95。源代码可在https://github.com/yjingyu/instanc_segentation_pro中获得。
translated by 谷歌翻译
AVA挑战的目标是提供与可访问性相关的基于视觉的基准和方法。在本文中,我们将提交的技术细节介绍给CVPR2022 AVA挑战赛。首先,我们进行了一些实验,以帮助采用适当的模型和数据增强策略来完成此任务。其次,采用有效的培训策略来提高性能。第三,我们整合了两个不同分割框架的结果,以进一步提高性能。实验结果表明,我们的方法可以在AVA测试集上获得竞争结果。最后,我们的方法在CVPR2022 AVA挑战赛的测试集上实现了63.008 \%ap@0.50:0.95。
translated by 谷歌翻译
近年来,热图像超分辨率(TISR)问题已成为一个有吸引力的研究主题。 TISR将用于各种领域,包括军事,医疗,农业和动物生态学。由于PBVS-2020和PBVS-2021研讨会挑战的成功,TISR的结果不断改善,并吸引了更多的研究人员注册PBVS-2022挑战。在本文中,我们将向PBVS-2022挑战介绍我们提交的技术细节,该挑战设计具有频道拆分网络和变压器(BN-CSNT)的双边网络以解决TISR问题。首先,我们设计了一个基于带有变压器的频道拆分网络的上下文分支,以获取足够的上下文信息。其次,我们设计了一个带有浅变压器的空间分支,以提取可以保留空间信息的低水平特征。最后,对于上下文分支,为了融合通道拆分网络和变压器的功能,我们提出了一个注意力改进模块,然后通过建议的特征融合模块融合了上下文分支和空间分支的特征。所提出的方法可以实现X4的PSNR = 33.64,SSIM = 0.9263,PSNR = 21.08,SSIM = 0.7803在PBVS-2022挑战测试数据集中X2的SSIM = 0.7803。
translated by 谷歌翻译
引用视频对象细分任务(RVO)的目的是在所有视频框架中通过语言表达式引用的给定视频中的对象实例。由于需要在各个实例中理解跨模式语义,因此此任务比传统的半监督视频对象细分更具挑战性,在该视频对象分割中,在第一帧中给出了地面真相对象掩盖。随着变压器在对象检测和对象细分方面的巨大成就,RVOS已取得了显着的进步,而Reformen to Reformer实现了最新的性能。在这项工作中,基于强大的基线框架 - 引用者,我们提出了几个技巧来进一步提高,包括周期性学习率,半监督方法和测试时间增加推断。改进的推荐子在CVPR2022上排名第二,参考YouTube-VOS挑战。
translated by 谷歌翻译
为了安全和合理地参与密集和异质的交通,自动驾驶汽车需要充分分析周围交通代理的运动模式,并准确预测其未来的轨迹。这是具有挑战性的,因为交通代理的轨迹不仅受交通代理本身的影响,而且还受到彼此的空间互动的影响。以前的方法通常依赖于长期短期存储网络(LSTMS)的顺序逐步处理,并仅提取单型交通代理之间的空间邻居之间的相互作用。我们提出了时空变压器网络(S2TNET),该网络通过时空变压器对时空相互作用进行建模,并通过时间变压器处理颞序序列。我们将其他类别,形状和标题信息输入到我们的网络中,以处理交通代理的异质性。在Apolloscape轨迹数据集上,所提出的方法在平均值和最终位移误差的加权总和上优于Apolloscape轨迹数据集的最先进方法。我们的代码可在https://github.com/chenghuang66/s2tnet上找到。
translated by 谷歌翻译
本文探讨了使用或有可能用于交通视频分析的深度学习(DL)方法,强调了自动驾驶汽车(AVS)和人类手术车辆的安全安全性。我们提出了一条典型的处理管道,该管道可用于通过提取操作安全指标并提供一般提示和指南来改善交通安全性来理解和解释流量视频。该处理框架包括几个步骤,包括视频增强,视频稳定,语义和事件分割,对象检测和分类,轨迹提取,速度估计,事件分析,建模和异常检测。我们的主要目标是指导流量分析师通过为每个步骤选择最佳选择,并通过对建议最成功的常规和DL基于DL的算法进行比较分析,从而为缺乏模块提供新的设计,并为缺乏模块提供新的设计。每个步骤。我们还审查现有的开源工具和公共数据集,可以帮助培训DL模型。为了更具体,我们审查了示例性的交通问题,并提到每个问题需要步骤。此外,我们研究了与驾驶员认知评估,基于人群的监测系统,路边基础设施中的边缘计算,自动化驾驶系统(ADS)车辆(ADS)车辆的边缘计算的联系,并突出显示缺失的差距。最后,我们审查了交通监控系统的商业实施,其未来前景以及开放问题,以及对这种系统广泛使用的剩余挑战。
translated by 谷歌翻译
用于数据有效的计算机视觉挑战的视觉感应前瞻挑战要求竞争对手从数据缺陷的设置中从头划痕培训模型。在本文中,我们向ICCV2021 Vipriors实例分割挑战介绍了我们提交的技术细节。首先,我们设计了一种有效的数据增强方法,以改善数据缺陷的问题。其次,我们进行了一些实验来选择适当的模型,并对这项任务进行了一些改进。第三,我们提出了一种有效的培训策略,可以提高性能。实验结果表明,我们的方法可以在测试集上实现竞争结果。根据竞争规则,我们不使用任何外部图像或视频数据和预先训练的权重。上面的实现细节在第2节和第3节中描述了。最后,我们的方法可以在ICCV2021 Vipriors实例分割挑战的测试集上实现40.2 \%@ 0.50:0.95。
translated by 谷歌翻译
人重新识别(RE-ID)旨在确定非重叠捕获摄像机的同一个人人员,这在视觉监控应用和计算机视觉研究领域起着重要作用。由于高广阔的注释未标记数据的标识,拟合有限的基于外观的表示提取器具有有限的收集的训练数据对于人物重新ID是至关重要的。在这项工作中,我们为人员重新ID提出了更强大的基线,即当前现行方法的增强版本,即强大的基线,具有微小的修改,但更快的收敛速度和更高的识别性能。借助于更强大的基线,我们在2021个vipriors中获得了第三名(即0.94,在地图中)重新识别挑战,而没有基于想象的预训练的参数初始化和任何额外的补充数据集的辅助。
translated by 谷歌翻译